賓夕法尼亞州立大學(xué)發(fā)明了一種讓AI無處遁形的檢測(cè)方法

發(fā)布時(shí)間：2026-06-27 06:23:54 作者：玩站小弟

　　拉薩10月13日電 (貢確)由西藏自治區(qū)教育廳主辦、拉薩。

這項(xiàng)由賓夕法尼亞州立大學(xué)計(jì)算機(jī)科學(xué)團(tuán)隊(duì)完成的研究，以預(yù)印本形式發(fā)布于2026年5月，論文編號(hào)為arXiv:2605.21856，有興趣深入了解的讀者可通過該編號(hào)查詢完整論文。

你有沒有這樣的經(jīng)歷——考試前偷偷背了答案，上了考場(chǎng)照樣能寫得漂漂亮亮，讓人以為你真的懂了？只要沒人拆穿，一切看起來都完美。當(dāng)下大型語言模型（也就是我們常說的AI大模型）在各類數(shù)學(xué)推理測(cè)試中表現(xiàn)驚人，但背后藏著一個(gè)讓研究人員寢食難安的問題：這些模型，究竟是真的學(xué)會(huì)了解題，還是偷偷背了答案？

賓夕法尼亞州立大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)，這個(gè)問題遠(yuǎn)比表面上看起來復(fù)雜得多。不僅有些模型確實(shí)"背了答案"，更麻煩的是，它們還進(jìn)化出了一種極其狡猾的手段——把偷背來的答案藏在貌似合理的推理過程后面，讓人根本分辨不出真假。研究團(tuán)隊(duì)把這種現(xiàn)象稱為"推理掩蓋記憶"，并為此專門設(shè)計(jì)了一套反作弊系統(tǒng)，名叫零鏈?zhǔn)剿伎继结?，英文縮寫是ZCP。

**一、考場(chǎng)上的作弊者：數(shù)據(jù)污染是怎么回事**

在深入了解這套反作弊系統(tǒng)之前，先搞清楚"數(shù)據(jù)污染"是什么意思。

評(píng)測(cè)AI模型的能力，需要專門的考題集，就像高考一樣，平時(shí)不對(duì)外公開，到了測(cè)試時(shí)才亮出來。這些考題集學(xué)界稱為"基準(zhǔn)測(cè)試集"。正常情況下，模型在訓(xùn)練時(shí)不應(yīng)該見過這些考題，測(cè)試成績(jī)才能反映它的真實(shí)能力。

然而，有些模型的訓(xùn)練數(shù)據(jù)中悄悄混入了這些考題，甚至連答案也一起打包進(jìn)去了。這就像學(xué)生上考場(chǎng)前已經(jīng)拿到了原題，成績(jī)自然亮眼，但這完全不代表他真正理解了數(shù)學(xué)。這種情況就叫做數(shù)據(jù)污染。

更麻煩的是，現(xiàn)實(shí)中的污染遠(yuǎn)不止這么直接。有些心存不良的模型發(fā)布方會(huì)對(duì)考題進(jìn)行改頭換面，把"杰克有12本書"改成"瑪麗有一摞書脊總厚12英寸"，數(shù)字沒變、答案沒變，但說法完全不同。這種手段叫做"規(guī)避性污染"或"間接污染"。現(xiàn)有的檢測(cè)方法大多靠比對(duì)文字是否相似，遇到這種改頭換面的手法就完全失效了——文字變了，但核心內(nèi)容根本沒變。

研究團(tuán)隊(duì)檢驗(yàn)了幾種主流檢測(cè)方法的表現(xiàn)，結(jié)論相當(dāng)令人沮喪?；诮y(tǒng)計(jì)概率的檢測(cè)方法（如DPCC）在面對(duì)改寫過的題目時(shí)，得分會(huì)從0.73驟降到0.19，幾乎失去了檢測(cè)能力。依靠讓模型"補(bǔ)全題目前半段"來判斷是否見過原題的數(shù)據(jù)重建方法，在改寫題目上的識(shí)別準(zhǔn)確率同樣大幅下滑，從約40%跌到不足20%。還有一種方法是把數(shù)據(jù)集名稱悄悄加進(jìn)提示詞里，看模型是否會(huì)自動(dòng)補(bǔ)全后續(xù)內(nèi)容，但惡意的發(fā)布方完全可以在訓(xùn)練時(shí)把這些標(biāo)識(shí)信息刪干凈，讓這招也徹底無效。

**二、推理鏈?zhǔn)侨绾螏椭鶤I"掩蓋作弊"的**

研究團(tuán)隊(duì)在研究過程中有了一個(gè)關(guān)鍵發(fā)現(xiàn)，正是這個(gè)發(fā)現(xiàn)為整套檢測(cè)方法奠定了基礎(chǔ)——鏈?zhǔn)剿季S推理不僅沒能幫助暴露作弊，反而成了最好的"遮羞布"。

什么是鏈?zhǔn)剿季S推理？簡(jiǎn)單來說，就是AI在給出答案之前，先把解題步驟一步一步寫出來，就像在草稿紙上演算。這種方式確實(shí)能幫助AI解決復(fù)雜問題，也讓人覺得它在認(rèn)真"思考"。

但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)微妙的問題：當(dāng)模型偷背了答案時(shí)，它依然可以生成一段看起來完整、合理的推理過程，然后自然地引出那個(gè)它早已"知道"的答案。從旁觀者角度來看，推理過程有模有樣，答案也對(duì)，誰能說它是在作弊呢？

這就像一個(gè)記住了解題答案的學(xué)生，上了考場(chǎng)之后反推出一條看起來像推導(dǎo)過程的演算過程，工工整整地寫在試卷上。評(píng)卷老師看到解題過程完整、答案正確，自然給滿分，但真正的能力從未被檢驗(yàn)。

為了驗(yàn)證這一點(diǎn)，研究團(tuán)隊(duì)做了一個(gè)逐步截?cái)嗤评礞湹膶?shí)驗(yàn)。他們讓模型在只獲得完整推理過程的0%、20%、40%……一直到100%的情況下回答問題，分別統(tǒng)計(jì)在"已經(jīng)見過的題目"和"沒有見過的干凈題目"上的答題正確率差距。結(jié)果顯示，當(dāng)模型能看到完整推理鏈時(shí)，兩類題目的正確率差距相當(dāng)小，幾乎分辨不出來。但隨著推理鏈被逐漸截?cái)啵罹嚅_始擴(kuò)大；等到推理鏈完全消失、模型必須直接給出答案時(shí)，差距急劇拉大。這意味著，那條推理鏈確實(shí)一直在掩蓋著模型內(nèi)心深處"直接知道答案"的捷徑。

**三、零鏈?zhǔn)剿伎继结槪簭?qiáng)迫AI"不打草稿"直接作答**

發(fā)現(xiàn)了這個(gè)規(guī)律之后，反制方案的思路就變得清晰起來——既然推理鏈?zhǔn)钦谛卟?，那就把遮羞布拿走，?qiáng)迫模型直接給出答案，不準(zhǔn)打草稿。

這就是零鏈?zhǔn)剿伎继结樀暮诵牟僮鳌Ｔ谡y(cè)試中，模型會(huì)先生成推理過程再給出答案。而在零鏈?zhǔn)剿伎继结樀臏y(cè)試中，研究團(tuán)隊(duì)會(huì)通過特殊的方式強(qiáng)制模型跳過推理，直接輸出最終答案。

對(duì)于可以直接操控內(nèi)部參數(shù)的開源模型，比如Qwen系列，研究團(tuán)隊(duì)會(huì)在模型的輸出前面強(qiáng)行預(yù)填"最終答案是：\[ \boxed{"這樣的文字片段，讓模型只能補(bǔ)全答案本身，無法生成任何推理步驟。對(duì)于像GPT系列這樣只能通過接口調(diào)用的封閉模型，則在發(fā)給模型的問題末尾加上一段嚴(yán)格指令，要求它"只把最終答案放在方框內(nèi)輸出，不得有任何其他內(nèi)容，包括推理或解釋"，通過提示詞工程達(dá)到同樣的效果。

強(qiáng)迫模型"不打草稿"之后，背了答案的模型和沒背答案的模型就有了截然不同的表現(xiàn)。沒背過答案的模型在面對(duì)它沒見過的題時(shí)，失去推理鏈的輔助，正確率會(huì)明顯下降；而背了答案的模型則可以直接從記憶中調(diào)出答案，正確率幾乎不受影響。差距就這樣暴露了。

**四、參照組的設(shè)計(jì)：如何區(qū)分"真本事"和"背答案"**

不過，僅僅強(qiáng)迫模型直接作答還不夠，因?yàn)檫@里有一個(gè)容易被忽視的問題：萬一這個(gè)模型真的特別厲害，不需要推理過程就能算出答案呢？

這個(gè)疑問是合理的。畢竟，有些題目本身就不需要多少推理，模型憑借對(duì)數(shù)學(xué)關(guān)系的理解，直接給出答案也完全合理。如果把這種真實(shí)能力誤判為作弊，檢測(cè)就失去了意義。

為了把"真本事"和"背答案"區(qū)分開來，研究團(tuán)隊(duì)引入了一組參照題目。他們把原來的考題進(jìn)行了一種特殊改造——只改數(shù)字，不改結(jié)構(gòu)。具體來說，就是保持題目的邏輯框架和解題思路完全不變，但把里面所有的數(shù)值都換掉（保持?jǐn)?shù)量級(jí)相近，比如原來是12的地方換成15）。這樣一來，新題和原題的難度完全一致，解法也完全一樣，但答案變了，而且模型絕對(duì)沒有見過這道新題。

研究論文中有一個(gè)非常直觀的例子。原題是："杰克有一摞書，總厚12英寸。他知道80頁厚度為1英寸。如果他有6本書，平均每本多少頁？"答案是160頁。改寫后的參照題是："艾米麗有一堆疊放的筆記本，高度為15英寸。她知道90頁等于1英寸厚。如果她有5本，每本平均多少頁？"答案變成了270頁。

這兩道題的解法思路完全一樣，難度也相同，但一道是模型見過的（直接的或改寫過的），另一道是全新的。如果模型在兩道題上的直接作答正確率相近，說明它是憑真本事答題；如果在原題上正確率明顯更高，說明它背了答案，遇到新題就露餡了。

為了大規(guī)模地生產(chǎn)這些參照題，研究團(tuán)隊(duì)設(shè)計(jì)了一套自動(dòng)化流水線，由一個(gè)生成模型負(fù)責(zé)創(chuàng)造新題并給出解答，再由兩個(gè)相互獨(dú)立的評(píng)判模型各自驗(yàn)證答案是否正確。只有兩個(gè)評(píng)判模型都認(rèn)可，這道參照題才會(huì)被納入?yún)⒄占?，確保參照題的質(zhì)量可靠。

**五、污染置信度：把"有沒有作弊"變成一個(gè)精確的數(shù)字**

有了零鏈?zhǔn)剿伎继结樀臏y(cè)試結(jié)果之后，研究團(tuán)隊(duì)還需要一個(gè)方式來量化"到底有多大可能是在作弊"。畢竟，現(xiàn)實(shí)世界里的數(shù)據(jù)污染程度千差萬別，有的模型可能只接觸過一小部分考題，有的則把整個(gè)題庫都背了。用簡(jiǎn)單的"是/否"來判斷太過粗糙，需要一個(gè)能反映污染嚴(yán)重程度的連續(xù)數(shù)值。

為此，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"污染置信度"的指標(biāo)，數(shù)值范圍在0.5到1之間。0.5代表沒有任何統(tǒng)計(jì)證據(jù)表明存在污染，1則代表幾乎可以確定存在記憶性背題。

這個(gè)數(shù)字的計(jì)算過程分兩步。第一步，用統(tǒng)計(jì)方法檢驗(yàn)?zāi)Ｐ驮谠}上和參照題上的表現(xiàn)差距是否在統(tǒng)計(jì)意義上足夠顯著——簡(jiǎn)單說就是，這個(gè)差距到底有多大概率只是運(yùn)氣好，而不是真的背了答案。對(duì)于連續(xù)型指標(biāo)（如每個(gè)詞的生成概率），使用自舉抽樣檢驗(yàn)，重復(fù)抽樣一萬次；對(duì)于離散型指標(biāo)（如答對(duì)了幾道），使用麥克尼馬爾檢驗(yàn)。第二步，把得到的概率值轉(zhuǎn)換成一個(gè)貝葉斯意義上的后驗(yàn)概率，也就是"在看到這些結(jié)果之后，模型真的背了答案的概率是多少"。這個(gè)轉(zhuǎn)換假設(shè)事先不偏袒任何一方（背了或沒背各占50%的可能性），讓數(shù)字本身來說話。

這樣設(shè)計(jì)的好處是，當(dāng)兩組表現(xiàn)差距不夠大時(shí)，置信度會(huì)保持在0.5附近，意味著沒有證據(jù)支持污染的結(jié)論；當(dāng)差距越來越顯著時(shí)，置信度會(huì)朝著1.0逼近，明確指向作弊行為。整個(gè)過程不需要主觀判斷，完全由數(shù)學(xué)來決定結(jié)論。

**六、檢測(cè)有哪些具體工具？四種指標(biāo)各有分工**

在實(shí)際檢測(cè)中，研究團(tuán)隊(duì)為零鏈?zhǔn)剿伎继结樑鋫淞怂姆N不同的衡量指標(biāo)，針對(duì)不同的使用場(chǎng)景各有側(cè)重。

第一種叫做準(zhǔn)確率，就是直接看模型在強(qiáng)制不打草稿的情況下答對(duì)了多少題。這是最直觀的指標(biāo)，對(duì)原題和參照題分別統(tǒng)計(jì)，對(duì)比差異。第二種叫做一致性，看模型在不打草稿時(shí)給出的答案，和它在正常打草稿時(shí)給出的答案是否一致。這個(gè)指標(biāo)有一個(gè)特別的優(yōu)勢(shì)——不需要知道標(biāo)準(zhǔn)答案，只要比較兩種模式下的輸出就行，適合在沒有答案的情況下使用。第三種是首詞生成概率，即在強(qiáng)制不打草稿的情況下，模型生成標(biāo)準(zhǔn)答案第一個(gè)詞的概率是多少。背了答案的模型對(duì)第一個(gè)詞往往有更高的"直覺反應(yīng)"，這個(gè)概率會(huì)明顯更高。第四種是全詞生成概率，把整個(gè)答案每個(gè)詞的生成概率做幾何平均，得到模型"自然流露"出完整答案的綜合概率。

這四種指標(biāo)形成了從"最方便但要求最多"到"最不方便但要求最少"的梯度?；诟怕实膬煞N指標(biāo)信號(hào)最強(qiáng)、最敏感，但需要能訪問模型內(nèi)部參數(shù)，封閉的商用API模型無法使用?；跍?zhǔn)確率的指標(biāo)在中等規(guī)模的題目集下就能給出可靠結(jié)論，適合有標(biāo)準(zhǔn)答案的場(chǎng)景?；谝恢滦缘闹笜?biāo)要求最低，既不需要內(nèi)部參數(shù)，也不需要標(biāo)準(zhǔn)答案，但需要更多題目才能統(tǒng)計(jì)出顯著差異。

**七、實(shí)驗(yàn)驗(yàn)證：在已知"有沒有背題"的情況下測(cè)試效果**

檢測(cè)工具設(shè)計(jì)好之后，當(dāng)然要在實(shí)際場(chǎng)景中驗(yàn)證效果。研究團(tuán)隊(duì)采用了兩種不同的驗(yàn)證路徑。

第一種驗(yàn)證路徑叫做"翻轉(zhuǎn)實(shí)驗(yàn)"，利用的是兩個(gè)已有的數(shù)學(xué)推理專用模型：Qwen2.5-Math-7B和DeepSeek-Math-7B。這兩個(gè)模型的技術(shù)報(bào)告明確寫明了它們的訓(xùn)練數(shù)據(jù)包含了數(shù)學(xué)考題集GSM8K和MATH的訓(xùn)練部分，所以可以確定這兩個(gè)模型對(duì)這些題目是"背過"的。研究團(tuán)隊(duì)同時(shí)使用了一個(gè)叫做GSM1K的題目集作為對(duì)照，這個(gè)題目集發(fā)布時(shí)間晚于兩個(gè)模型的訓(xùn)練截止日期，因此可以確定它們沒有見過。

在已經(jīng)背過的GSM8K和MATH題目上，零鏈?zhǔn)剿伎继结樀奈廴局眯哦仍趲缀跛兄笜?biāo)上都逼近或達(dá)到了1.000，而在沒有背過的GSM1K題目上，污染置信度則穩(wěn)定在0.500附近，完全符合預(yù)期。

更關(guān)鍵的是，為了模擬"規(guī)避性污染"的情景，研究團(tuán)隊(duì)把GSM8K和MATH的題目交給GPT-4o進(jìn)行改寫——改變文字表述，保留數(shù)字和答案——然后在改寫后的版本上重新測(cè)試。結(jié)果令人振奮：即便是在改寫后的題目上，污染置信度依然接近1.000。這說明零鏈?zhǔn)剿伎继结槞z測(cè)的是模型內(nèi)部深層的"問題到答案的捷徑映射"，而不是表面文字的相似度，改寫文字根本破壞不了這條捷徑。

第二種驗(yàn)證路徑更加嚴(yán)格——研究團(tuán)隊(duì)自己動(dòng)手制造了"作弊模型"，然后測(cè)試能否抓住。他們把兩個(gè)基礎(chǔ)模型Qwen2.5-Math-7B和Qwen3-8B分別在改寫版的考題上進(jìn)行微調(diào)，讓它們學(xué)習(xí)改寫版題目的解法，然后在原版題目上測(cè)試。微調(diào)所用的數(shù)學(xué)題來自競(jìng)賽級(jí)別的Omni-MATH和跨領(lǐng)域的MMLU-Pro加XFINBENCH，每組題目各自均分為兩半，一半用于制造污染，另一半完全隔離不參與訓(xùn)練，作為干凈對(duì)照。

訓(xùn)練完成后，在用于訓(xùn)練的那一半題目上，模型準(zhǔn)確率有了顯著提升——Qwen2.5-Math在Omni-MATH上從21%跳到了43%，Qwen3在多領(lǐng)域數(shù)據(jù)上從37%跳到了66%。而在沒有參與訓(xùn)練的那一半題目上，準(zhǔn)確率幾乎沒有變化，這證實(shí)了性能提升確實(shí)來自背題而非真正能力的提升。

面對(duì)這些自己制造的作弊模型，零鏈?zhǔn)剿伎继结樢廊怀晒Φ刈R(shí)別出了污染。在已經(jīng)背過的題目上，置信度接近1.000；在干凈題目上，置信度維持在0.500附近。精準(zhǔn)區(qū)分，沒有誤判。

**八、數(shù)據(jù)集大小的影響：要抓住作弊者，需要多少題目**

研究團(tuán)隊(duì)還專門分析了一個(gè)實(shí)際操作中很重要的問題——要抓住作弊行為，至少需要多少道題？

通過在50到1000題之間取不同規(guī)模的樣本進(jìn)行實(shí)驗(yàn)，研究發(fā)現(xiàn)各類指標(biāo)有著明顯不同的"抓人效率"。依靠概率的兩種指標(biāo)最靈敏，哪怕只有50到100題，置信度就能超過0.94，因?yàn)槊康李}都貢獻(xiàn)了連續(xù)的概率數(shù)值，信息量遠(yuǎn)比簡(jiǎn)單的對(duì)錯(cuò)更豐富?；跍?zhǔn)確率的指標(biāo)需要中等規(guī)模，大約200到500題才能穩(wěn)定給出高置信度，但它完全不需要訪問模型內(nèi)部，適合外部審計(jì)?；谝恢滦缘闹笜?biāo)最"省事"（不需要答案也不需要內(nèi)部參數(shù)），但也需要大約1000題才能穩(wěn)定暴露差異。

這意味著，在實(shí)際使用中，審計(jì)者可以根據(jù)自己能獲取的條件靈活選擇：如果能訪問模型內(nèi)部參數(shù)，用100題左右就夠了；如果只能通過接口調(diào)用，用幾百題的準(zhǔn)確率對(duì)比也能達(dá)到目的；如果連標(biāo)準(zhǔn)答案都沒有，只要題目數(shù)量足夠，一致性指標(biāo)依然可靠。

**九、現(xiàn)實(shí)世界的掃描：哪些知名模型被檢測(cè)到了污染**

最后，研究團(tuán)隊(duì)把目光投向了當(dāng)前真實(shí)部署的知名模型，對(duì)它們進(jìn)行了一次"抽查"。被檢測(cè)的模型包括Qwen-2.5-Math、Qwen-3、GPT-4o和GPT-5.1，使用的考題是GSM8K的測(cè)試集和MATH-500。

檢測(cè)結(jié)果相當(dāng)耐人尋味。Qwen-2.5-Math在兩個(gè)數(shù)據(jù)集上都表現(xiàn)出了明顯的污染跡象，概率類指標(biāo)的置信度超過0.998，說明這個(gè)模型深度記憶了這兩套題目的答案。Qwen-3的情況則很有趣：在MATH-500上污染跡象明顯，但在GSM8K上的所有四個(gè)指標(biāo)置信度都在0.500附近，強(qiáng)烈暗示它在GSM8K上是干凈的，可能開發(fā)團(tuán)隊(duì)在準(zhǔn)備這個(gè)版本時(shí)進(jìn)行了更嚴(yán)格的數(shù)據(jù)過濾。

在商用封閉模型中，GPT-4o在兩個(gè)數(shù)據(jù)集上都顯示出了明確的污染，置信度超過0.85。而GPT-5.1則完全不同，置信度在兩個(gè)數(shù)據(jù)集上都維持在約0.5，接近完全干凈的狀態(tài)。研究團(tuán)隊(duì)分析認(rèn)為，這可能意味著OpenAI在GPT-5.1的開發(fā)過程中采取了更為主動(dòng)積極的去污染措施或數(shù)據(jù)過濾策略。

需要說明的是，對(duì)商用模型的檢測(cè)完全通過提示詞工程實(shí)現(xiàn)，無需訪問任何內(nèi)部參數(shù)，這也證明了零鏈?zhǔn)剿伎继结樤谧钍芟拗频膱?chǎng)景下依然具備實(shí)際操作能力。

**十、研究本身的局限與坦誠(chéng)**

研究團(tuán)隊(duì)也坦率地指出了當(dāng)前方法的局限所在。對(duì)于開源模型，通過在輸出前預(yù)填特定文字片段來強(qiáng)制繞過推理是完全可靠的；但對(duì)于封閉商用模型，目前只能依靠提示詞工程，而隨著未來的商用模型被更深度地優(yōu)化為"必須先推理后回答"，這種提示詞方法的可靠性可能會(huì)下降。畢竟，一個(gè)被訓(xùn)練到極度擅長(zhǎng)推理的模型，可能無論怎樣要求它都會(huì)先生成一段推理再給出答案，這時(shí)候提示詞就失去了效力。這個(gè)問題被列為未來需要進(jìn)一步解決的重要方向。

歸根結(jié)底，這項(xiàng)研究解決的是一個(gè)影響整個(gè)AI行業(yè)誠(chéng)信基礎(chǔ)的問題。當(dāng)我們用排行榜上的高分來選擇應(yīng)該相信哪個(gè)模型、把哪個(gè)模型部署到關(guān)鍵場(chǎng)景時(shí)，這些分?jǐn)?shù)究竟代表真實(shí)能力還是對(duì)考題的記憶，至關(guān)重要。零鏈?zhǔn)剿伎继结樚峁┝艘环N不需要接觸訓(xùn)練數(shù)據(jù)、不需要了解模型內(nèi)部結(jié)構(gòu)就能可靠檢測(cè)的方法，把"作弊檢測(cè)"這件事變得切實(shí)可行。

考慮到未來AI模型的應(yīng)用會(huì)越來越廣泛和深入，確保性能評(píng)估的真實(shí)性不僅是學(xué)術(shù)問題，也直接關(guān)系到每一個(gè)依賴AI系統(tǒng)做決策的人。這套檢測(cè)框架的價(jià)值，或許正在于它讓這種可信性變得可驗(yàn)證，而不只是停留在發(fā)布方的一紙承諾。有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過arXiv編號(hào)2605.21856查閱原始論文，研究團(tuán)隊(duì)也在GitHub上公開了完整代碼。

Q&A

Q1：數(shù)據(jù)污染對(duì)AI評(píng)測(cè)會(huì)產(chǎn)生多大影響？

A：數(shù)據(jù)污染會(huì)讓AI模型在測(cè)試集上的分?jǐn)?shù)虛高，因?yàn)槟Ｐ涂赡鼙尺^了這些題目的答案，而非真正掌握了解題能力。這意味著排行榜上的高分可能并不代表真實(shí)水平，開發(fā)者和用戶據(jù)此做出的部署決策可能存在嚴(yán)重偏差，實(shí)際使用效果會(huì)比測(cè)試分?jǐn)?shù)顯示的差很多。

Q2：零鏈?zhǔn)剿伎继结槥槭裁茨軝z測(cè)到改寫過的題目中的污染？

A：零鏈?zhǔn)剿伎继结槞z測(cè)的不是文字是否相似，而是模型內(nèi)部有沒有形成"題目語義直接對(duì)應(yīng)答案"的快捷通道。改寫只改變了表面文字，但題目的數(shù)值和邏輯結(jié)構(gòu)沒變，所以這條捷徑依然存在。與此同時(shí)，參照題改變了數(shù)值，徹底打斷了這條捷徑，對(duì)比之下差距就暴露出來了。

Q3：GPT-5.1為什么污染置信度接近0.5？

A：研究團(tuán)隊(duì)的檢測(cè)結(jié)果顯示GPT-5.1在GSM8K和MATH-500上的污染置信度均接近0.5，即幾乎沒有統(tǒng)計(jì)意義上的污染證據(jù)。研究團(tuán)隊(duì)分析認(rèn)為，這很可能說明OpenAI在GPT-5.1的開發(fā)階段實(shí)施了更嚴(yán)格的數(shù)據(jù)去污染或過濾措施，從而避免了對(duì)這些標(biāo)準(zhǔn)測(cè)試集的記憶性學(xué)習(xí)。

Tag： {loop type="keywords" row='10' } {$vo.title}

感谢您访问我们的网站，您可能还对以下资源感兴趣：
无尽的欲,田中瞳hitomi超乳观看,跳进地理书的旅行第二季完整观看,749局电影高清在线观看

无尽的欲,田中瞳hitomi超乳观看,跳进地理书的旅行第二季完整观看,749局电影高清在线观看,毒液3在线观看免费完整版高清,遇见王沥川电视剧高清免费观看全集,庆余年高清下载mp4下载

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

賓夕法尼亞州立大學(xué)發(fā)明了一種讓AI無處遁形的檢測(cè)方法